Estudio comparativo de modelos Transformer para ASR del Corán
Este estudio comparativo de modelos Transformer preentrenados para ASR coránico logra un WER de 0.08, superando en 5% al baseline Citrinet. Aprende las claves.
Este estudio comparativo de modelos Transformer preentrenados para ASR coránico logra un WER de 0.08, superando en 5% al baseline Citrinet. Aprende las claves.
El nuevo marco E2E unifica tokenizador, LLM y FM, logrando un WER del 0.78% y 1.56% en TTS, superando a los sistemas en cascada.
Descubre cómo comprimir modelos de voz como HuBERT y Whisper sin necesidad de datos ni entrenamiento, reduciendo el WER hasta un 34% sin pérdida significativa. ¡Optimiza tu IA!